[レポート]エクサバイト規模のAWSストレージのイノベーション #STG221-L #reinvent

ストレージを使ってビジネスにアジリティを追加する考え方から、実践的なコスト最適化手法まで、事例と新機能のオンパレードセッションです。みんな動画を見るべき。

AWS re:Invent 2022

#Amazon S3

#Amazon Redshift

#Amazon QuickSight

#Amazon DataZone

#Amazon EBS

臼田佳祐

2023.01.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、臼田です。

みなさん、re:Invent楽しんでますか？(挨拶

今回は下記セッションのレポートです。今日今すぐに役に立つ沢山のコスト最適化のナレッジなどもあるのでみんな動画を見るべき。

[STG221-L]AWS storage innovations at exabyte scale

Data is the change agent driving digital transformation. The variety of data and workloads and the need for resiliency in shared data environments make storage choices critical to every application. In this session, Mai-Lan Tomsen Bukovec, VP of AWS Foundational Data Services, and Andy Warfield, AWS Distinguished Engineer, share the latest AWS storage innovations and an inside look at how customers drive modern business on data lakes and with high-performance data. They also dive deep into technical and organizational strategies that protect with resilience, respond with agility, and fuel innovations with data-driven insights on AWS storage.

エクサバイト規模の AWS ストレージのイノベーション

データは、デジタルトランスフォーメーションを推進するチェンジエージェントです。さまざまなデータとワークロード、および共有データ環境での回復力の必要性により、すべてのアプリケーションにとってストレージの選択が重要になります。このセッションでは、AWS Foundational Data Services のバイスプレジデントである Mai-Lan Tomsen Bukovec と AWS Distinguished Engineer の Andy Warfield が、最新の AWS ストレージイノベーションを共有し、お客様がデータレイクや高性能データを使用して最新のビジネスをどのように推進しているかについて内部を見ていきます。 . また、AWS ストレージでのデータ駆動型の洞察により、復元力で保護し、俊敏に対応し、イノベーションを促進する技術的および組織的戦略を深く掘り下げます。

Andy Warfield, VP / Distinguished Engineer, Amazon Mai-Lan Tomsen Bukovec, VP of Foundational Data Services (FDS), Amazon

動画

レポート

Mai-Lan氏の話から。

彼女はAWSのFoundational Data ServicesのVPであり、これにはS3 / Kinesis Streaming / CloudWatchなどを含んでいる。

今回はエクサバイト規模でのAWSストレージのイノベーションの話。後ほどAndy氏も登壇する。

AWSに入って10年経つが、データ駆動型のビジネスにおいてとてもエキサイティングなくらい世界はデータを生成している。IDCの調査では2022年には101ZBものデータが生成されると言われており、これは101兆GBに相当する。Adamはキーノートでデータ爆発と呼んでいたが、毎年データ爆発するのであればそれがニューノーマルだとも言える。

このデータをS3に保存し意思決定をすることができる。

このグラフは機械学習が複雑で大規模なデータセットをどのように処理しているか調べた図。(出典: Parameter counts in Machine Learning - AI Alignment Forum)

機械学習で利用するデータセットが過去20年間で1億倍に増加している。

世界がこれだけデータを利用しているのであればストレージが以下に重要かわかる。その置き場所はもちろんAWSしかない。耐久性と可用性、セキュリティやスケーラビリティ、最高の運用基準をもち16年以上の実績を誇るクラウドプロバイダーは他にはない。AWSにはストレージサービスだけで非常に多くの選択肢がある。

ストレージを構築するすべてのチームに当てはまるAWSのリーダーシッププリンシプルがある。それは「Insist on the Highest Standards」。

最高水準にすることは非現実に思われるかもしれないが、それをやるのが当たり前でAWSの文化である。

ユナイテッド空港も数年前AWSに移行した顧客。パンデミックの中で弾力性は非常に重要。2020年には大規模なスケールダウンが必要になった。多くの顧客と同じようにコスト最適化のためにAWSに移行した。そしてその結果以前よりも迅速にアプリケーションを立ち上げるアジリティを手に入れた。そして2021年4月には、United Travel Ready Centerをほんの数ヶ月という迅速な期間で立ち上げた。

United Travel Ready Centerのおかげで、旅行に必要な複雑な規則にも顧客が簡単に対応できるようになった。

re:Inventに来る人は新しいリリースを知りたい人もいれば、先人の事例を知りたい人もいる。今回は両方やる。3つのテーマに分けて話す。エクサバイト規模の場合もあれば小さな規模の顧客もある。ストレージを使ってどのようにオペレーションして解決するか。

テーマは以下の3つ

デザインの俊敏性
成長の動的な管理
予期せぬ事態への計画

まずはデザインの俊敏性について。

AWSは絶えず新しくなっている。オンプレミスでは早くするためには新しい製品を購入する必要があった。

AWSのファイルサービスはそのいい例。何が必要か、顧客の要望を元に改善され様々なワークロードに対応していく。パフォーマンスとスケーラビリティを向上し、コストを下げる。

Amazon FSxでは様々なファイルシステムをマネージドで利用できる。

つい昨日、Amazon FSx for NetApp ONTAPファイルシステムの最大スループットキャパシティと最大SSD IOPSが2倍になった。

すぐにこの改善効果が得られる。パフォーマンスを向上するために新製品にアップグレードしようとするオンプレミスの時代とは違う。

AWSで提供しているファイルサービスはFSxだけではない。Amazon EFSもある。例えば国際的なバイオテクノロジー企業であるRegeneronではリサーチャーが安全にデータアクセスをするためにEFSを利用していた。そこで、アプリケーションに必要なパフォーマンスを自動的に調整するElasticスループットを今週発表した。

これを利用すると、パフォーマンスを事前にプロビジョニングする必要はない。これは機械学習の推論のようにパフォーマンス要件が急激で予測が困難なワークロードに役立つ。

更にパフォーマンスも向上した。レイテンシーが最大60%短縮された。

更には既存のオンプレミスにあるデータセットをより迅速に利用したいという顧客の声があった。クラウドを利用してバーストしたい。これを受けて9月にAmazon File Cacheをリリースした。高速なキャッシュでミリ秒未満のレイテンシと毎秒数百GBのスループットを提供する。既存のオンプレミスストレージを拡張せずに分析ができる。

アーカイブデータのパフォーマンスも向上した。S3 Glacierのリストアスループットが10倍になった。これは自動的に適用される。いつの間にか無料で速くなっている。これがAWSのサービスを利用するということ。

Amazon S3のアクセスポイントでは、クロスアカウント利用に対応した。バケット所有者は、他のアカウントで作成されたアクセスポイント経由でアクセスを承認できるようになるため、アイデンティティベースのアクセス制御をセキュアに委任することができる。

Amazon RedshiftではKinesis Data StreamやAmazon Managed Streaming for Apache Kafka (MSK)などのストリーミングサービスからデータをロードできるようになった。これまでは一旦S3にステージする必要があった。

そしてAWSのパートナーネットワークとAWS Marketplaceのソリューションを利用することもアジリティを高める方法。以下はSaferというソリューションを開発したTHORNの事例。このソリューションを企業が利用することで児童の虐待を検知する事ができる仕組みで、AWS Marketplaceから利用できる。

AWSパートナーネットワークやAWS Marketplaceを活用することで、企業は自身のビジネスの重要な部分に集中できるようになる。位置から作り込む必要はない。

ここからAndy氏の話。

彼はS3チームのエンジニアで、今回はアジリティを実現するためのデータレイクの設計パターンについて話す。

まずはデータレイクという言葉から始める。この言葉は10年前から言われるようになり、データウェアハウス(DWH)と対比して使われた。 DWHよりも早く構築するもの。以前はDWHは素晴らしいものであったが、それを利用するための準備は非常に大変だった。

データレイクはただデータを集約して共有する。構築チームとデータを切り離した。これによりこの10年物事を変えてきた。

Amazon S3は何十万ものデータレイクの基盤。顧客がデータレイクにS3を好む理由は2つある。まずストレージとしてS3が基盤。耐久性、伸縮性、コストパフォーマンスに優れ、何よりもストレージのプロビジョニングを気にする必要がない。使うだけでプロジェクトが始まる。そしてもう1つがシンプルなS3のAPI。S3チームは最初からAPIをシンプルに保つように努力している。プログラム的な側面のS3はあらゆる種類のツールやサービスとの統合を成長させることを可能にした。EMRやAthenaなどはもちろん、SparkやApache Hadoopなどのデータレイク用のサードパーティアプリケーションもS3に直接接続する。

S3は現在280兆のオブジェクトを持っていて、1秒あたり1億のリクエストを処理している。一般的な一企業のストレージは多くの場合はアイドルでスパイクアクセスが多い。オンプレミスでは限界が来るが、S3の大きな仕組みに統合することで高性能を得られる。

これから話すのはオンプレミスからマイグレーションする架空の企業の話。Andy氏がこれまで経験したことを融合した話。

データレイクを利用する上でツールの話もするが、ツールには注目してほしくはない。説明したいのは小さなところで大きなアジリティを得ること。今回は中規模の非営利団体を仮定する。Charity MLと呼ばれるオープンソースのデータセットを利用する。非営利団体にとって有益な寄付のデータを管理している。このデータは一般的な企業のデータと似ていて、エクセルのスプレッドシート。何年もこれを利用していて、だんだんシートが大きくなってきた。これを使って財務報告書や領収書を発行したり、キャンペーンを出したりしている。

今回やりたいのは、クラウドを使ってデータのインサイトを得ること。しかし従来のやり方を邪魔したくない。S3に保存して、そこから何かを始める。

まずは収集するところから。エクセルはローカルのファイラーに存在するのでこれを収集してCSVに変換するオートメーションを構築する。そしてAWS Data Syncを利用してS3バケットに収集する。

企業でデータを変更してもData Syncが常に最新に保ってくれる。

今回はData SyncだがFile Gateway、Firehose、SFTPなどを採用することもできる。ここで重要なことは、どのような手段で現場との摩擦を少なくするかということ。

S3にデータが入ったら、続けてAWS Glueを利用する。クローラーを利用してデータカタログを生成できる。すべてのデータタイプを標準化されたデータにしてくれる。しかしカタログはメタデータなため従来のデータはそのまま利用できる。

データが利用できるようになったらAmazon Athenaを利用してSQLクエリを書いていく。これはデータと対話するようなもの。ビジネスの財務状況や、どれくらい寄付をもらっているかなど、分析できる。

Athenaを使ってデータと会話したら、その結果を確認し続けられるようにQuickSightで可視化をする。QuickSightではクエリ結果をグラフ化してダッシュボードを生成できる。これは非常に説得力を持てる。例えば寄付額が2ヶ月前から急激に下がっていることに気づく。

QuickSightのダッシュボードのスナップショットをメールで送ることができるが、全員に送ることはしない。重要なのは、結果を確認できる1人にこれを送り、その分析をした結果の重要な部分をチームに共有すること。

さて、ダッシュボードが出来上がりましたがこれを見て次に何をすればいいでしょうか？SageMakerを利用して機械学習してみましょう。来年の寄付を予測します。

チームには機械学習の経験がないためSageMaker Autopilotを利用して予測していきます。もし機械学習の経験のあるメンバーを採用できれば、SageMaker Studioにシームレスに移動してより詳細な洞察を得ることができる。

大事なことは最初のエクセルを破壊していないこと。既存のオペレーションを変えずに、スケーラビリティのある新しい方向へ向かうことができたこと。そしていつでも別の方向に進むこともできる。そして本当に影響力のあるものを見つけることができる。

再びMai-Lan氏の話。

次の話はストレージの成長を動的に管理すること。

つまりはコスト、データポリシー、信頼性やバックアップなどについて考えていく。しかし多くの顧客はコストの管理に固執してしまう。

米国証券取引所の規制機関であるFINARの例。2019年から2022年までの3年間でストレージ利用量が7倍になった。しかし、利用量が増えたときにコストを最適化し50%も削減した。S3 Intelligent-Tieringを利用し自動で割引し、ミリ秒でアクセスできるアーカイブストレージであるGlacier Instant Retrievalを多用した。

Airbnbのコスト最適化はWALL STREET JOURNALの記事になった。Glacier Deep Archiveの利用や高価な既存のシステムをAWS Backupに置き換えて2020年だけで6,350万ドルも節約した。しかし重要なことは7人の小さな専任のクラウドチームでこれを実現したこと。小さなチームが大きなインパクトを与えることができる。

ここではあらゆる顧客が利用できる具体的な戦略をいくつか提示する。まずアクセスパターンが不明なデータがある場合はS3 Intelligent-Tieringで階層化を行う。非常に迅速に効果を出したいなら、S3 Standardにあるものを見てS3 Intelligent-Tieringに入れられるかを考える。多くの顧客がすぐにできる。

これはS3以外のサービスにも考え方を適用できる。EFSでも最大72%削減できるIntelligent-Tieringが利用できる。FSx ONTAPは自動階層化で最大65%削減することができる。FSxファミリーでは重複排除や圧縮など他のコスト削減の手段もある。

そして、このために小さなチームを活用することが大事。正直なところ数人で十分。このチームですべての作業を行う必要は無い。分析や調査、実施方法の検討を行い戦略を決定する。

そして、あなたが思っているよりストレージはコールドである。あなたは最もホットなストレージが必要だと確信しているかもしれない。私はアプリケーション開発者と何度もその話をしてきた。しかしそれは多くの場合真実ではない。コールドなストレージクラスに移行することで得られるコスト削減は非常に大きい。

そのためS3 Intelligent-TieringとGlacier Instant Retrievalを試すことをおすすめする。

アクセスパターンを確認できるようにS3 Storage Lensをリリースしている。ストレージとその成長状況を全社的に可視化できるようになった。Storage Lensはメトリクス、レコメンデーション、レポートを提供する。

11月17日には34種類の新しいメトリクスが追加された。ストレージがどのように進化しているかわかる。

AdamのキーノートでAmazon DataZoneが発表された。これは組織全体に渡ってデータをカタログ化し、発見し、共有し管理するのに役立つ。データの管理もデータを探すのも簡単になる。

Compute Optimizerも忘れないで。昨年はEBS最適化の推奨も開始した。これは無料で利用できるコスト最適化のサービス。gp3を使わないのは20%も損している。使わない手はない。

EBSスナップショットは多大な労力を費やしたもう1つの場所。EBS Direct APIではバックアップの差分を確認したりできる。昨年EBS Snapshots Archiveを発表した。ストレージコストを最大75%削減できる。例えばJohnson & Johnsonは20年の保存が必要になるためEBS Snapshots Archiveを利用して年間100万ドル以上節約している。